🔥Hot News: Сегодня мы добавили на Арену сразу ДВА бенчмарка
Встречайте PingPong Benchmark и Simple-Evals-RU — новые инструменты для оценки языковых моделей.
➡️PingPong Benchmarkтестирует модели в ролевых диалогах. Здесь LLM-ки не только генерируют ответы, но и выступают в роли пользователей. Набор персонажей и ситуаций проверяет способность модели сохранять выбранную роль в многораундовой беседе.
Оценка идет по трем критериям: - Соответствие персонажу — насколько точно модель играет свою роль. - Развлекательность — насколько интересны её ответы. - Языковая грамотность — естественность и корректность речи.
Результат — усредненный рейтинг по всем параметрам.
➡️Simple-Evals-RU— это бенчмарк, который проверяет модели на математических, логических и программных задачах. Он включает тесты MGSM, MATH, HumanEval, MMLU-Pro и BBH, а также сравнивает стоимость работы моделей на миллион токенов.
Методология основана на simple-evals от OpenAI, поддерживает только Instruction-модели и использует Zero-shot и Chain-of-Thought промпты.
Оба бенчмарка уже доступны на платформе, найти их можно на сайте llmarena.ru➡️ во вкладке «Таблица лидеров» ➡️ «PingPong» и «Simple-Evals».
Какие бенчмарки вам ещё интересны? Пишите в комментариях 👇
🔥Hot News: Сегодня мы добавили на Арену сразу ДВА бенчмарка
Встречайте PingPong Benchmark и Simple-Evals-RU — новые инструменты для оценки языковых моделей.
➡️PingPong Benchmarkтестирует модели в ролевых диалогах. Здесь LLM-ки не только генерируют ответы, но и выступают в роли пользователей. Набор персонажей и ситуаций проверяет способность модели сохранять выбранную роль в многораундовой беседе.
Оценка идет по трем критериям: - Соответствие персонажу — насколько точно модель играет свою роль. - Развлекательность — насколько интересны её ответы. - Языковая грамотность — естественность и корректность речи.
Результат — усредненный рейтинг по всем параметрам.
➡️Simple-Evals-RU— это бенчмарк, который проверяет модели на математических, логических и программных задачах. Он включает тесты MGSM, MATH, HumanEval, MMLU-Pro и BBH, а также сравнивает стоимость работы моделей на миллион токенов.
Методология основана на simple-evals от OpenAI, поддерживает только Instruction-модели и использует Zero-shot и Chain-of-Thought промпты.
Оба бенчмарка уже доступны на платформе, найти их можно на сайте llmarena.ru➡️ во вкладке «Таблица лидеров» ➡️ «PingPong» и «Simple-Evals».
Какие бенчмарки вам ещё интересны? Пишите в комментариях 👇
Launched in 2013, Telegram allows users to broadcast messages to a following via “channels”, or create public and private groups that are simple for others to access. Users can also send and receive large data files, including text and zip files, directly via the app.The platform said it has more than 500m active users, and topped 1bn downloads in August, according to data from SensorTower.
What Is Bitcoin?
Bitcoin is a decentralized digital currency that you can buy, sell and exchange directly, without an intermediary like a bank. Bitcoin’s creator, Satoshi Nakamoto, originally described the need for “an electronic payment system based on cryptographic proof instead of trust.” Each and every Bitcoin transaction that’s ever been made exists on a public ledger accessible to everyone, making transactions hard to reverse and difficult to fake. That’s by design: Core to their decentralized nature, Bitcoins aren’t backed by the government or any issuing institution, and there’s nothing to guarantee their value besides the proof baked in the heart of the system. “The reason why it’s worth money is simply because we, as people, decided it has value—same as gold,” says Anton Mozgovoy, co-founder & CEO of digital financial service company Holyheld.